在上一篇提到傳統的大數據運算投入的部分,為了讓開發更方便地將各項資源組合再一起,運算不只有開發,還需要各項的工具,像是數據整合、數據安全、分析方式,如果要再去一個一個找工具顯得過於麻煩,不如使用已經整合好的,這樣既高效又方便,同時成本部分也可以大大降低,也不需要去維護各項資源,一站式通通幫你解決。
大數據開發治理平台(DataWorks)
DataWorks是阿里的PaaS產品,基於MaxCompute、E-MapReduce、Hologres、AnalyticDB等服務來提供統一的大數據平台,一站式高效穩定管理,透過與上一篇提到的MaxCompute來進行結合使用,協助企業快速完成各項數據分析、開發、服務、安全等工作,從搜集數據到表現數據,都可以透過DataWorks解決。
可以在外網或是內網下,直接透過Web進行操作,透過設定監控可以看到任務的完成時間,也可以針對每一個節點任務進行監控,介面中也可以直接使用SQL指令來對MaxCompute下達指令。
產品架構:
主要還是依靠MaxCompute的計算,實際使用分為六大塊的結構,分別是數據集成、數據服務、數據分析、數據建模、數據開發、數據治理等六大項目。
數據集成:是一個數據同步平台,支援各種數據流的數據同步,有批量同步與即時同步兩種,而同步的的策略也可以由裡面的流程設定或是JSON腳本進行更細微的操作。
數據服務:幫助企業管理對內或對外的API設定,各式的API管理、測試、調用,也有嚮導模式可以快速將數據庫的表生成API,簡單在上操作即可生成。
數據分析:在線的分析工具,可以直接對數據庫進行分析,可直接安全的在線上完成數據分析,也可以設定分析數據的權限。
數據建模:當企業增長越來越大,數據結構也會越來愈複雜,每個部門各自數據獨立,無法交互比較,透過數據建模將各項數據制定統一標準,達到更高效的使用,讓價值最大化。
數據開發:也叫做DataStudio,透過介面來創建以及管理表,直覺的流程任務編排,在介面上可以拖拉圖標創建所需任務節點,各自獨立的工作空間也不會互相干擾,也可以建制週期性任務,不需要手動開發。
數據治理:可以在平台上直接檢查使用中的不管是計算、開發、數據質量、安全,所存在的問題,透過健康評比來給分數,可以在上面查看您所需要注意的淺在問題。
產品模式:
簡單模式
在簡單模式下,一個DataWorks工作空間只對應一種計算引擎,無法設定開發與生產環境,只能執行簡單的數據開發,許多功能會受到限制。
標準模式
在標準模式下,一個DataWorks工作空間對應兩種計算引擎,分為開發環境與生產環境,您可以先在自己的開發環境上運行,再提交任務到生產環境去進行部署,達到高安全性。
接下來我們實際在阿里雲上操作使用DataWorks與MaxCompute結合,來做簡單的數據分析吧!